构建以人为本的病理学相似图像搜索工具 SMILY
文 / Narayan Hegde Google Health 软件工程师
与 Carrie J. Cai Google Research 研究员
机器学习 (ML) 在辅助医疗领域已取得诸多进展,这为医护专业人员的日常工作(如协助检测由 糖尿病引起的眼疾 和 转移性乳腺癌)提供了帮助。尽管高性能算法对于获得临床医生的信任和采纳必不可少,但它们并不总是足够的。向医生提供哪些信息以及医生如何与这些信息交互可能是ML技术最终为用户带来的实用性的关键决定因素。
注:糖尿病引起的眼疾 链接
https://ai.googleblog.com/2018/12/improving-effectiveness-of-diabetic.html
转移性乳腺癌 链接
https://ai.googleblog.com/2018/10/applying-deep-learning-to-metastatic.html
解剖病理学中组织样本的显微分析是诊断癌症和许多其他疾病的黄金准则,而 ML 可在该领域大有所为。尽管传统病理学的诊断是通过物理显微镜完成,但是凭借计算机上可即时查看高分辨率病理学样本图像的“数字病理学 (digital pathology)”近来已愈发普及。这种技术的应用大幅简化了信息查询,并在病理学家处理疑难病症或罕见疾病的诊断、“普通”病理学家应对专家病例以及实习病理学医生开展学习时,提供了必要帮助。
在这些情况下,医护人员总会面临一个常见问题:“我所见的病征是什么?”传统解决方案是让医生询问同事,或费力查阅参考教材与在线资源,企求找到一个显示有相似外观病征的图像。在解决此类问题时,我们通常采用称为基于内容的图像检索 (Content-based Image Retrieval, CBIR) 的通用计算机视觉解决方案。以 Google 图片 中的“反向图像搜索 (reverse image search)”功能为例,用户可通过该功能输入一张图像,以此来搜索相似图像。
注:Google 图片 链接
https://images.google.com/
反向图像搜索 链接
https://support.google.com/websearch/answer/1325808?co=GENIE.Platform%3DAndroid&hl=en
今天,我们很高兴与您分享两篇研究论文,论文介绍了研究者在医学相似图像搜索 (Similar Image Search)的人机交互深入研究方面取得的进展。“组织病理学领域的相似图像搜索:SMILY” (Similar Image Search for Histopathology:SMILY) 发表于 《自然合作期刊 (NPJ) 数字医学》(Nature Partner Journal (npj) Digital Medicine),我们在该论文中介绍了基于 ML 的病理学反向图像搜索工具。第二篇论文 “以人为本的工具:用于在医学决策过程中处理不完美算法”(Human-Centered Tools for Coping with Imperfect Algorithms During Medical Decision-Making) 曾在 2019 ACM CHI 计算系统中的人因学会议 (2019 ACM CHI Conference on Human Factors in Computing Systems) 上获得荣誉奖,我们在该论文中探讨了基于图像搜索的各种优化模式,并评估了这些模式在医生与 SMILY 交互过程中所产生的影响。
注:组织病理学领域的相似图像搜索:SMILY 链接
https://www.nature.com/articles/s41746-019-0131-z
以人为本的工具:用于在医学决策过程中处理不完美算法 链接
https://chi2019.acm.org/2019/03/15/chi-2019-best-papers-honourable-mentions/
SMILY 设计
开发 SMILY 首先需要应用深度学习模型。研究人员使用 50 亿张非病理学自然图像(如狗、树、人造物体等)来训练模型,并将图像压缩成一个“具有概括性的 (summary)”数值向量,称为 “嵌入向量 (embedding)”。在训练过程中,神经网络会通过计算和比对图像的嵌入向量进行学习,从而区分相似图像与不同类别的图像。然后使用该模型,用来自癌症基因组图谱 (The Cancer Genome Atlas) 的一组未识别的切片来创建图像块及其相关嵌入的数据库。当在 SMILY 工具中选择查询图块时,模型便会对该图像块的嵌入向量与数据库进行相似度的计算和比对,从而检索包含最相似嵌入向量的图像块。
注:癌症基因组图谱 链接
https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga
构建 SMILY 数据库以及使用输入图块执行相似图像搜索的流程步骤示意图
该工具允许用户选择感兴趣的区域,并获得看起来相似的匹配结果。我们使用乳腺、结肠和前列腺(三大最常见的癌症病发处)的组织图像,并根据预先指定的相似度轴(如组织学特征或肿瘤分级)测试了 SMILY 的图像检索能力。
我们发现,尽管未使用专门的病理学图像或任何带标签的组织学特征或肿瘤分级示例进行训练,SMILY 仍展示出极佳的搜索结果。
示例图:在切片中选择一小块区域并使用 SMILY 检索相似图像。SMILY 在几秒内即可搜素含数十亿裁剪图像的数据库,效率极高。由于可在不同的放大倍数(缩放比例)下查看病理学图像,因而 SMILY 能自动按照输入图像相同的放大倍数搜索图像
此为第二个 SMILY 应用示例,我们此次搜索了小叶癌(乳腺癌的一个亚型)
SMILY 优化工具
然而,我们也注意到在病理学医生与 SMILY 交互的过程中,会产生一些问题。
具体来说,当用户试图回答一个模糊的问题时,比如与 此图像 相似的图像是什么?”,希望能从含有相似图像的过往病例中有所收获。但系统却无法理解这一搜索意图:用户是否正努力寻找拥有组织学特征、腺体形态、总体结构或其他特征相似的图像?换而言之,用户需要系统能够基于个例而去引导和优化搜索能力,以便找到其实际想要的搜索结果。
此外,我们还发现,这种迭代搜索优化的需求源于医生执行“迭代诊断 (iterative diagnosis)”的习惯,也就是以迭代方式生成假设、收集数据以验证这些假设、寻找其他替代假设,以及重新审视或检验先前的假设。显然,要能够满足用户的实际需求,SMILY 还需支持不同的用户交互方式。
注:迭代诊断 链接
https://www.bmj.com/content/339/bmj.b3490
在第二篇论文中,我们介绍了以人为本的细致研究。在该研究中,我们通过一套交互式工具设计并强化了 SMILY,从而帮助最终用户即时表达相似度的含义:
通过区域优化 允许病理学医生在图像内裁剪出其感兴趣的区域,从而将搜索限制在该区域;
通过样本优化 允许用户从搜索结果中挑选一个子集并检索更多类似结果;
通过概念优化 滚动条可用于指定在搜索结果中或多或少显示某个临床概念(如融合腺体)。
注:论文 链接
https://dl.acm.org/citation.cfm?id=3300234
我们并没有将这些概念内置于机器学习模型中,而是开发了一种新方法,令最终用户可以在事后创建新概念,并针对用户认为会对每个特定用例中起重要作用的概念进行搜索算法的自定义。在机器学习模型完成训练后,此方法可通过后续工具开展新探索,而无需针对用户感兴趣的所有概念或应用重新训练原始模型。
通过对病理学医生展开用户研究,我们发现基于工具的 SMILY 与未配备这些工具的传统版 SMILY 相比,不仅能提高搜索结果的临床实用性,而且它还能大幅提升用户的信任度和采纳率。有趣的是,这些优化工具似乎还能参与病理学医生的决策过程, 而不仅在相似图像的搜索方面表现更佳。
例如,病理学家可以通过迭代搜索的结果观察到病情的变化,并根据病情发展来验证假设可能性。若搜索结果偏差巨大,许多用户便会修改这些工具,例如裁剪其认为会干扰搜索过程的区域,或通过调整概念滑动块来增加被忽略概念的占比,以便测试和理解底层算法。
除被动接受 ML 结果外,医生还可在主动验证假设及运用其专业知识的同时进行授权,以充分利用自动化的优势。
借助这些交互工具,用户可根据其预想意图定制每次搜索体验,我们为 SMILY 在协助搜索大型数字化病理学图像数据库方面拥有巨大潜力而激动。
此技术的其中一项潜在应用便是为病理学图像教材加上说明性文字索引,通过图像搜索来搜索这些教材,帮助医学生或处于培训期的病理学医生加快学习过程。另一项应用是在癌症研究员致力探讨肿瘤形态与患者治疗成效关系的过程中,加速搜索相似病例的过程。
最后,病理学医生还可以利用 SMILY 等工具确定同一名患者的组织样本中出现某种病征(如活跃的细胞分裂迹象或有丝分裂)的所有部位,从而更好地判断疾病的严重程度,以便为选择癌症疗法时提供有用参考。
更重要的是,研究发现进一步证明,我们还需结合使用以人为本的设计和交互工具,方能使复杂的机器学习算法发挥最大效用。
致谢
本文的成果离不开以下人员的贡献:Jason D. Hipp、Yun Liu、Emily Reif、Daniel Smilkov、Michael Terry、Craig H. Mermel、Martin C. Stumpe 以及 Google Health 和 PAIR 所属成员。获取两篇论文的 预印本。
如果您想详细了解 本文提及 的相关内容,请参阅以下文档。这些文档深入探讨了这篇文章中提及的许多主题:
2019 ACM CHI 荣誉奖 链接
(https://chi2019.acm.org/2019/03/15/chi-2019-best-papers-honourable-mentions/)
Google Health
(https://tensorflow.google.cn/tfx)
PAIR
(https://ai.google/research/teams/brain/pair)
组织病理学领域的相似图像搜索:SMILY 预印本
(https://arxiv.org/abs/1901.11112)以人为本的工具:用于在医学决策过程中处理不完美算法 预印本
(https://arxiv.org/abs/1902.02960)